凌波微课|扩增子研究第七讲：高通量下机数据质控标准

Original Young 凌波微课 2023-08-18

收录于合集

#聊科研 72 个

#知识速享 42 个

“学生信，做分析，就上凌波微课”

高通量下机数据质控标准

视频文字版

同学们，大家好！学生信，做分析，就上凌波微课！

欢迎大家扫描下方的二维码关注“凌波微课”，加入凌波微课交流群，参与我们的课程和课下交流。

扫码关注

我是主讲人小Young，今天我们给大家分享的内容来自公众号“红皇后学术”。上一期我们介绍了高通量测序下机数据格式和质量评估标准，今天我们就带大家看一下高通量下机数据质控标准。

本期凌波微课主要有三个方面的内容:

1).高通量测序数据质控整体流程

2).数据质控基本概念

3).数据质控的标准

PART 1

数据质控整体流程

高通量测序下机的原始数据raw reads中存在一些低质量数据、接头以及barcode序列等，为消除其对后续分析准确性产生的影响，在数据下机以后对原始数据进行质控处理就成了至关重要的环节。

Illumina测序的下机数据一般为fastq格式，至于fastq格式的说明我们已经在上期《凌波微课|扩增子研究第六讲：高通量下机数据评估标准》中有详细描述，Illumina PE250测序序列首先需要对reads的质量进行质控过滤；接着根据PE reads之间的overlap关系，将成对的reads拼接(merge)成一条序列；最后按照barcode和引物序列拆分得到每个样本的优质序列，并在过程中根据正反barcode和引物方向校正序列方向以及去除嵌合体。

PART 2

数据质控基本概念

扩增子barcodes

为什么扩增子有barcode？基因组测序、RNA-Seq、ChIP-Seq等等，都是一个文库对应一个样品，因此不需要使用barcode进行数据拆分。而扩增子使用barcode的原因是扩增子目前研究对象是细菌活真菌多样性，其对数据量要求最多3-5w条序列即可饱合。而Illumina测序仪的通量很高，采用Index来区分每个文库，而每个文库的数据量仍然可以达到千万的级别，加上建库测序的成本也不会低于千元。对于扩增子动辄成百上千的样品即太贵，又浪费。因此将扩增子样本添加上barcode(标签)，通常将20-50个样品混合在一起，构建一个测序文库，达到高通量测序大量样品同时降低实验成本的目的。

通常的测序仪下机数据，只经过Index比对，拆分成来自不同文库的数据文件，分发给用户。而扩增子的一个文库包括几十个样品，还需要通过每个样品上标记的特异Barcode进一步区分，再进行下游分析。

那么Barcode一般在扩增子的位置和类型？

Barcode位于引物的外侧，比较典型的有三种，下图展示的为最常用的barcode位于两端，此外还有右端和左端两类也比较常用。

碱基质量值（Quality Score或Q-score）

Fastq数据中的质量字符并不是和质量值Q值直接对应起来的，fastq数据格式中的质量字符是ASCII值，在Phred+64体系中，ASCII值-64的结果就是Q值，在Phred+33体系中，ASCII值-33的结果就是Q值。在Phred体系中，Q = -10log10(P), 碱基质量值与误率的对应关系表如下所示：

注：Q10准确率为90%，Q20准确率为99%，Q30准确率为99.9%，Q40准确率为99.99%，Q50准确率为99.999%。

PCR Duplication

Duplication出现的类型有两种，一种是由于PCR扩增的原因导致的完全一样的reads，另一种是比对到基因组上同一位置不同的reads，但由于质量问题、测序错误、比对错误、等位基因等等，被认为是Duplication。

由于这些重复序列不能带来额外信息，相反会影响变异检测结果准确性，因此下游生信分析中这些重复序列是需要去除的去掉。这也就意味着Duplication rate越高，数据利用率越低，测序成本浪费的也就越多。因此在NGS生信分析中首要了解的就是Duplication rate的占比。重复序列包括3种情况：a. 完全重复，如（Full length）；b. 前端重复，如（Prefix）；c. 中间一段重复，如（Substring）。

PCR扩增对Duplication Rate的影响：

PCR扩增带有一定的偏好性和错配率，会影响最终形成文库的覆盖度和测序准确性。PCR本身对于不同GC含量的样本的扩增效率是不同的，中等GC含量扩增效率最高，高GC含量扩增最慢，也就是说PCR循环越多，扩增困难和扩增容易的片段之间相差就会越大，对应的分子多样性就会越低，Duplication就会增大。另外PCR本身在扩增的过程中可能会产生一些碱基的错配，错误的扩增可能会导致dup值升高。因此对于PCR过程中的Duplication值，我们可以人为的增加投入样本的量（增加样本DNA的多样性），同时降低PCR的循环数，选择均一性和保真性较好的扩增酶，就可以将这一过程中产生的Duplication，控制在合理的范围内。

Cluster生成对Duplication的影响：

Cluster在flowcell上的生成也是一个PCR过程。这个PCR比较容易被人遗忘。如果cluster变少，影响Duplication rate。原因是比例少的分子可能不能产生cluster，唯一性分子数减少，进而影响Duplication rate。适当的cluster生成密度，不仅能够获得最佳的数据产量，也能够获得较低的Duplication rate。目前的平台中，我们都希望cluster是单克隆(monoclonal)的，多克隆(Polyclonal)的cluster会出现空间距离过近而导致图像识别时相互overlap的cluster被测序识别程序过滤掉，造成的直接影响就是cluster密度过高，数据产量降低，整张芯片的cluster多样性降低，造成Duplication rate升高。

嵌合体 (Chimera)

样品在PCR的过程中，会有一些意外因素导致PCR产物由不同的模板复制得到不同的部分，使得PCR产物出现原本不存在的序列，称为嵌合体。嵌合体序列由来自两条或者多条模板链的序列组成，示意图如下：

在PCR反应中，延伸阶段由于不完全延伸，就会导致嵌合体序列的出现，以上图为例，在扩增序列X的过程中，在序列延伸阶段，只产生了部分X序列延伸阶段就结束了，在下一轮的PCR反应中，这部分序列作为序列Y的引物接着延伸，扩增就会形成X和Y的嵌合体序列。

通常在PCR过程中，大概有1%的几率会出现嵌合体序列，而在16S/18S/ITS 扩增子测序的分析中，由于不同序列的相似度极高，嵌合体可达1%-20%，需要在分析前去除嵌合体序列。嵌合体的比例与PCR循环数相关，循环数越高，嵌合体比例越高。

PART 3

数据质控标准

16S扩增子测序数据主要来自HiSeq2500产出的双端各250 bp (PE250)数据，因为读长长且价格便宜(性价比高)。PacBio读长长可直接测序16S全长1.5kb代表未来的趋势。

测序公司通常会返回raw data和clean data两种数据，raw data为测序获得的原始数据，而clean data则为去除含有接头序列及测序不确定N比例较高的结果，通常直接采用clean data进行质量评估及后续分析。

Illumina PE250测序序列首先需要对reads的质量进行质控过滤；接着根据PE reads之间的overlap关系，将成对的reads拼接(merge)成一条序列；最后按照barcode和引物序列拆分得到每个样本的优质序列，并在过程中根据正反barcode和引物方向校正序列方向以及去除嵌合体。

数据质控方法和参数